首页> 外文OA文献 >Mimicking Word Embeddings using Subword RNNs
【2h】

Mimicking Word Embeddings using Subword RNNs

机译:使用subword RNN模仿Word嵌入

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Word embeddings improve generalization over lexical features by placing eachword in a lower-dimensional space, using distributional information obtainedfrom unlabeled data. However, the effectiveness of word embeddings fordownstream NLP tasks is limited by out-of-vocabulary (OOV) words, for whichembeddings do not exist. In this paper, we present MIMICK, an approach togenerating OOV word embeddings compositionally, by learning a function fromspellings to distributional embeddings. Unlike prior work, MIMICK does notrequire re-training on the original word embedding corpus; instead, learning isperformed at the type level. Intrinsic and extrinsic evaluations demonstratethe power of this simple approach. On 23 languages, MIMICK improves performanceover a word-based baseline for tagging part-of-speech and morphosyntacticattributes. It is competitive with (and complementary to) a supervisedcharacter-based model in low-resource settings.
机译:单词嵌入通过使用从未标记数据获得的分布信息,将每个单词放在较低维度的空间中,从而改善了词法特征的泛化能力。但是,下游NLP任务中词嵌入的有效性受到词汇外(OOV)词的限制,而后者不存在嵌入。在本文中,我们介绍了MIMICK,这是一种通过学习从拼写到分布嵌入的函数来组合生成OOV单词嵌入的方法。与以前的工作不同,MIMICK不需要对原始词嵌入语料库进行重新培训;相反,学习是在类型级别上进行的。内部和外部评估证明了这种简单方法的强大功能。在23种语言上,MIMICK改进了基于词的基线的性能,用于标记词性和语态句法属性。在资源匮乏的环境中,它与基于监督角色的模型竞争(并且互补)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号